对少量语义分割(FSS)的研究引起了极大的关注,目的是在查询图像中仅给出目标类别的少数注释的支持图像。这项具有挑战性的任务的关键是通过利用查询和支持图像之间的细粒度相关性来充分利用支持图像中的信息。但是,大多数现有方法要么将支持信息压缩为几个班级原型,要么在像素级别上使用的部分支持信息(例如,唯一的前景),从而导致不可忽略的信息损失。在本文中,我们提出了密集的像素,互源和支持的注意力加权面膜聚合(DCAMA),其中前景和背景支持信息都是通过配对查询和支持特征之间的多级像素的相关性通过多级像素的相关性充分利用的。 DCAMA在变压器体系结构中以缩放点产生的关注实现,将每个查询像素视为令牌,计算其与所有支持像素的相似之处,并预测其分割标签是所有支持像素标签的添加剂聚集 - 相似之处。基于DCAMA的唯一公式,我们进一步提出了对N-shot分割的有效有效的一通推断,其中所有支持图像的像素立即为掩模聚集收集。实验表明,我们的DCAMA在Pascal-5i,Coco-20i和FSS-1000的标准FSS基准上显着提高了最先进的状态以前的最佳记录。烧烤研究还验证了设计dcama。
translated by 谷歌翻译
最近,已广泛研究了基于深度学习的方法,以进行可变形的图像注册任务。但是,大多数努力将复合图像表示形式直接映射到通过卷积神经网络的空间转换,而忽略了其捕获空间对应关系的有限能力。另一方面,变压器可以更好地表征与注意机制的空间关系,其远程依赖性可能对注册任务有害,在这种情况下,距离太大的体素不太可能是相应的对。在这项研究中,我们提出了一个新型的变形器模块,以及用于可变形图像配准任务的多尺度框架。变形器模块旨在通过将位移矢量预测作为几个碱基的加权总和来促进从图像表示到空间转换的映射。借助多尺度框架以粗略的方式预测位移字段,与传统和基于学习的方法相比,可以实现卓越的性能。进行了两个公共数据集的全面实验,以证明所提出的变形器模块以及多规模框架的有效性。
translated by 谷歌翻译
Graph neural networks (GNNs) are popular weapons for modeling relational data. Existing GNNs are not specified for attribute-incomplete graphs, making missing attribute imputation a burning issue. Until recently, many works notice that GNNs are coupled with spectral concentration, which means the spectrum obtained by GNNs concentrates on a local part in spectral domain, e.g., low-frequency due to oversmoothing issue. As a consequence, GNNs may be seriously flawed for reconstructing graph attributes as graph spectral concentration tends to cause a low imputation precision. In this work, we present a regularized graph autoencoder for graph attribute imputation, named MEGAE, which aims at mitigating spectral concentration problem by maximizing the graph spectral entropy. Notably, we first present the method for estimating graph spectral entropy without the eigen-decomposition of Laplacian matrix and provide the theoretical upper error bound. A maximum entropy regularization then acts in the latent space, which directly increases the graph spectral entropy. Extensive experiments show that MEGAE outperforms all the other state-of-the-art imputation methods on a variety of benchmark datasets.
translated by 谷歌翻译
机器人可以通过仅仅在单个对象实例上抓住姿势的证明,以任意姿势操纵类别内看不见的对象?在本文中,我们尝试通过使用Useek(一种无监督的SE(3) - 等级关键点方法来应对这一有趣的挑战,该方法在类别中享受整个实例的对齐方式,以执行可推广的操作。 USEEK遵循教师学生的结构,将无监督的关键点发现和SE(3) - 等级关键点检测解除。使用Useek,机器人可以以有效且可解释的方式推断与任务相关的对象框架,从而使任何类别内对象都从任何姿势中操纵。通过广泛的实验,我们证明了Useek产生的关键点具有丰富的语义,因此成功地将功能知识从演示对象转移到了新颖的对象。与其他进行操作的对象表示相比,面对大类别内形状差异,更健壮的演示率更有限,并且在推理时间更有效。
translated by 谷歌翻译
我们建议学习使用隐式功能通过灵巧的手来产生抓握运动来操纵。通过连续的时间输入,该模型可以生成连续且平滑的抓握计划。我们命名了建议的模型连续掌握函数(CGF)。 CGF是通过使用3D人类演示的有条件变异自动编码器的生成建模来学习的。我们将首先通过运动重试将大规模的人类对象相互作用轨迹转换为机器人演示,然后使用这些演示训练CGF。在推断期间,我们使用CGF进行采样,以在模拟器中生成不同的抓握计划,并选择成功的抓握计划以转移到真实的机器人中。通过对不同人类数据的培训,我们的CGF允许概括来操纵多个对象。与以前的计划算法相比,CGF更有效,并且在转移到真正的Allegro手抓住的情况下,成功率显着提高。我们的项目页面位于https://jianglongye.com/cgf
translated by 谷歌翻译
图表自我监督学习已被极大地用于从未标记的图表中学习表示形式。现有方法可以大致分为预测性学习和对比度学习,在这种学习中,后者通过更好的经验表现吸引了更多的研究注意力。我们认为,与对比模型相比,具有潜在增强和强大的解码器武器的预测模型可以实现可比较甚至更好的表示能力。在这项工作中,我们将数据增强引入潜在空间,以进行卓越的概括和提高效率。一个名为Wiener Graph DeonStolutional网络的新型图解码器相应地设计为从增强潜伏表示的信息重建。理论分析证明了图形滤波器的出色重建能力。各种数据集的广泛实验结果证明了我们方法的有效性。
translated by 谷歌翻译
我们向多人3D运动轨迹预测提出了一种新颖的框架。我们的主要观察是,人类的行动和行为可能高度依赖于其他人。因此,不是以隔离预测每个人类姿势轨迹,我们引入了一种多范围变压器模型,该模型包含用于各个运动的局部运动和用于社交交互的全局范围编码器。然后,通过将相应的姿势作为查询来参加本地和全球范围编码器特征,对变压器解码器对每个人进行预测。我们的模型不仅优于长期3D运动预测的最先进的方法,而且还产生了不同的社交互动。更有趣的是,我们的模型甚至可以通过自动将人分为不同的交互组来同时预测15人运动。具有代码的项目页面可在https://jiahunwang.github.io/mrt/处获得。
translated by 谷歌翻译
网络可能具有弱信号和严重程度的异质性,并且可能在一次出现时非常稀疏,但在另一个发生中非常致密。得分(Jin,2015)是最近网络社区检测的方法。它适应严重的程度异质性,并适应不同水平的稀疏性,但它对具有弱信号的网络的性能尚不清楚。在本文中,我们认为,在广泛的网络设置中,我们允许弱信号,严重程度异质性和广泛的网络稀疏性,得分实现了完善的聚类,并且在汉明集群中具有所谓的“指数率”错误。证据对网络邻接矩阵的领先特征向量进行了最新的进出方程。理论分析向我们保证,在弱信号设置中,得分继续运行,但它不排除分数可以进一步提高的可能性,以在实际应用中具有更好的性能,特别是对于具有弱信号的网络。作为纸张的第二份贡献,我们提出得分+作为改进的分数版本。我们调查了8个网络数据集的得分+,发现它优于几种代表性的方法。特别是,对于具有相对强烈的信号的6个数据集,得分+具有与得分相似的性能,但对于2个数据集(Simmons,Caltech)具有可能弱信号,得分+的误差率较低。得分+提出了几个变化以得分。我们使用理论和数值研究的混合物仔细解释每个变化的基本原理。
translated by 谷歌翻译
Deep learning models can achieve high accuracy when trained on large amounts of labeled data. However, real-world scenarios often involve several challenges: Training data may become available in installments, may originate from multiple different domains, and may not contain labels for training. Certain settings, for instance medical applications, often involve further restrictions that prohibit retention of previously seen data due to privacy regulations. In this work, to address such challenges, we study unsupervised segmentation in continual learning scenarios that involve domain shift. To that end, we introduce GarDA (Generative Appearance Replay for continual Domain Adaptation), a generative-replay based approach that can adapt a segmentation model sequentially to new domains with unlabeled data. In contrast to single-step unsupervised domain adaptation (UDA), continual adaptation to a sequence of domains enables leveraging and consolidation of information from multiple domains. Unlike previous approaches in incremental UDA, our method does not require access to previously seen data, making it applicable in many practical scenarios. We evaluate GarDA on two datasets with different organs and modalities, where it substantially outperforms existing techniques.
translated by 谷歌翻译